Анализ поведения пользователей стартапа - мобильного приложения по продаже продуктов питания

Цель исследования - разобраться, как ведут себя пользователи мобильного приложения

Задачи исследования:

Описание данных:

Каждая запись в логе — это действие пользователя, или событие.

EventName — название события;

DeviceIDHash — уникальный идентификатор пользователя;

EventTimestamp — время события;

ExpId — номер эксперимента: 246 и 247 — контрольные группы, а 248 — экспериментальная.

Ход исследования:

  1. открыть данные и изучить общую информацию
  2. подготовить данные
  3. изучить и проверить данные:
  1. изучить воронку событий:
  1. изучить результаты эксперимента:
  1. сформулировать общий вывод.

Загрузка данных

1.1 Импорт необходимых библиотек

1.2 Загрузка и чтение данных из csv-файла в датафрейм c помощью библиотеки pandas

Датасет содержит в себе информацию о действиях пользователей, или событиях. После изучения общей информации о датасете видно, что пропуски в записях отсутствуют, однако имеются явные дубликаты, которые необходимо удалить в хоже предобработки данных. Кроме того, нужно будет изменить названия столбцов и типы данных для комфортного дальнейшего анализа.

Подготовка данных

2.1 Изменение названий столбцов

2.2 Удаление дубликатов

2.3 Изменение типа данных и добавление столбцов

2.4 Проверка датасета на корректность после обработки

2.5 Проверка на наличие повторяющихся пользователей в группах

Предобработка данных завершена, можно приступить к работе.

Изучение и проверка данных

3.1 Сколько всего событий в логе?

3.2 Cколько всего пользователей в логе?

3.3 Сколько в среднем событий приходится на пользователя?

В среднем на одного пользователя приходится 32 события.

Однако медианное значение составляет - 20 событий на пользователя.

3.4 Анализ периода исследования

Исходя из визуализации столбчатой диаграммы, мы можем с уверенностью сказать, что мы располагаем неполными данными в течение всего периода исследования. До 31 июля включительно данные являются неполными, следовательно их нужно отбросить. Для дальнейшей работы следует оставить период с 1 августа по 7 августа 2019 г.

Отбросив неполные данные мы потеряли 1.16% событий и 0.23% пользователей, что в последующем не должно оказать существенного влияния на ход и результаты исследования. Данные с которыми дальше будет проводиться работа:

Распределение пользователей по группам эксперимента:

Изучение воронки событий

4.1 Какие события есть в логах, как часто они встречаются?

В логах встречается 5 типов событий:

  1. MainScrennAppear - просмотр главного экрана
  2. OfferScreenAppear - появление страницы каталога товаров
  3. CartScrennAppear - посмотр корзины
  4. PaymentScreenSuccessful - просмотр страницы успешного прохождения оплаты
  5. Tutorial - прохождение обучения

Чаще всего проиходит просмотр главного экрана(117328 событий - около 49%). Далее по частоте совершения идут: просмотр страницы каталога, просмотр корзины, а после страница успешной оплаты. Реже всего пользователи проходят этап обучение (1005 событий - меньше 1%)

4.2 Cколько пользователей совершали каждое из событий?

7419 пользователей просмотрели главную экран.

4593 пользователей просмотрели каталог товаров.

3734 пользователей просмотрели страницу корзины,с добавленными товарами.

3539 пользователей увидели страницу успешно совершенной покупки.

Минимальное количество пользователей: 840, - прошли обучение.

4.3 Последовательность событий

Основываясь на рассмотренных данных можно предположить следующую цепочку событий:

  1. пользователь открывает главную страницу (MainScreenAppear)
  2. пользователь просматривает каталог товаров (OffersScreenAppear)
  3. открывает страницу корзины с добавленным товарами (CartScreenAppear)
  4. успешно совершает покупку (PaymentScreenSuccessfull)

Прохождение обучения (Tutorial) соверша.т минимальное количество пользователей. Оно выбивается из логической последовательни. Предположительно, данный шаг не является обязательным.

4.4 Анализ воронки событий

Уберем событие Tutorial перед построением воронки

После первого шага (просмотр главного экрана) приступили к следующему шагу (просмотр каталога товаров) 62% пользователей. От второго события к просмотру корзины с товарами перешли 81% пользователей. До успешного прохождения оплаты после просмотра корзины дошли 95% пользователей.

Больше всего пользователей теряется на втором шаге, то есть при переходе с главной страницы к каталогу товаров. Такие пользователи составляют 38% . Причинами такой доли потери клиентов могли стать:

Около 48% процентов пользователей доходят до последнего события воронки, проходя все этапы от просмотра главного экрана до успешной оплаты заказа.

Учитывая, что до второго этапа доходят лишь 62% пользователей, данный показатель неплох.

Изучение результатов эксперимента

5.1 Количество пользователей в каждой экспериментальной группе

5.2 Проверка выборок 246 и 247

Проведем проверку равенства долей с помощью z-test.

H0: между долями нет значимой разницы

H1: между долями есть значимая разница

По результатам тестирования для всех событий разница не оказалось значимой, поэтому эти группы можно считать контрольными.

5.3 Выберем самое популярное событие. Посчитаем число пользователей, совершивших это событие в каждой из контрольных групп. Посчитаем долю пользователей, совершивших это событие. Проверим, будет ли отличие между группами статистически достоверным. Проделаем то же самое для всех других событий

Самое популярное событие - MainScreenAppear. По нему будет совершаться проверка гипотезы.

H0: между группами нет значимой разницы

H1: между группами есть значимая разница

Значимой разницы между группами по событию MainScreenAppear - нет.

Проверка по всем событиям

Также применим поправку Бонферрони для устранения эффекта множественных сравнений, так как есть шанс совершить ошибку первого рода (отвергнуть нулевую гипотезу, когда она на самом деле верна).

Выбрали значение 16, так как будет совершено 4 проверки групп по 4 событиям.

Значимой разницы между контрольными группами по событиям - нет. Разбиение на группы сработало корректно.

5.4 Сравнение с экспериментальной группой

Так как для теста контрольной и экспериментальной группы не нужна высокая точность, то для дальнейших экспериментов выберем самый стандартный уровень значимости равный 5%.

проверка контрольной группы 246 и экспериментальной 248

Значимой разницы между группами 246 и 248 нет.

проверка контрольной группы 247 и экспериментальной 248

Значимой разницы между группами 247 и 248 нет.

Проверка объединенной конрольной группы и экспериментальной

Значимой разницы между объединенными контрольными группами и экспериментальной нет.

5.5 Выбор уровня значимости

При проверке гипотез между контрольными и экспериментальной группами уровень статистической значимости был выбран 0.05. Это озачает что мы рискуем получить ошибку первого рода в 5% случаев.

И так как совершаем множественную проверку (16 экспериментов), применили поправку Бонферрони.

После изучения результатов исследования, было определено что:

Спасибо, изучу!

Общий вывод

В ходе проведения исследования для мобильного приложения по продаже продуктов питания было выполнено:

  1. Загрука данных:
  1. Предобработка данных:
  1. Изучение и проверка данных:
  1. Изучение воронки данных:
  1. Изучение результатов эксперимента:

Исходя из того факта, что множество проведенных экспериментов по каждому из событий между всеми имеющимися группами не выявили статистически значимой разницы между группами, можно утверждать, что изменение шрифтов в приложении интернет-магазина не оказало большого влияния на поведение пользователей. Тестирование можно назвать успешным.